메뉴

#코드 생성

TD
The Decoder 1일 전
IMP 8

AI 에이전트의 사고와 행동은 '코드'가 중심이다

메타, 스탠퍼드, UIUC 연구진의 새 리뷰 논문에 따르면, 코드는 AI 에이전트가 단순히 생성하는 결과물을 넘어 스스로 추론하고 행동하며 협력하는 핵심 기반입니다. 모델을 감싸는 '하니스(harness)'라는 소프트웨어 레이어가 상태가 없는 언어 모델을 지속적인 작업이 가능한 에이전트로 변환하며, 이는 실제 상용 시스템에도 적용되고 있습니다. 하지만 현재의 소프트웨어 테스트는 리스크를 감추기 쉬우므로, 더 투명한 평가 메커니즘이 필수적으로 요구됩니다.

AI 에이전트 코드 생성 소프트웨어 하니스
TC
TechCrunch AI 2일 전
IMP 8

앤스로픽, '동적 워크플로우' 탑재한 오푸스 4.8 발표

앤스로픽이 최신 고성능 AI 모델인 오푸스 4.8을 발표했습니다. 불과 41일 만의 빠른 업그레이드로, 불확실한 데이터 처리 능력을 개선하고 대규모 코딩 작업을 자동화하는 '동적 워크플로우(Dynamic Workflows)' 기능을 새롭게 선보였습니다. 또한, 사이버 보안 우려로 보류 중이던 최고 성능 모델인 '미토스(Mythos)'도 몇 주 내에 공개될 예정입니다.

앤스로픽 클로드 오푸스 에이전트
HN
Hacker News 3일 전
IMP 8

AI 에이전트가 소프트웨어 시스템을 근본적으로 변화시킬 수 없는 이유

현재의 LLM은 새로운 코드를 작성하는 수준의 국지적 작업에는 뛰어나지만, 복잡한 소프트웨어 시스템의 구조와 의존성을 파악하고 안전하게 수정하는 인과적 추론(Causal reasoning) 능력이 부족합니다. 이로 인해 에이전트가 완벽하게 PR(Pull Request)을 생성하여 자율적으로 소프트웨어를 배포하는 것은 현재로서는 불가능에 가깝습니다.

LLM 소프트웨어 개발 에이전트
WR
Wired AI 10일 전
IMP 8

오픈클로 에이전트에 로봇 팔을 달아주다

AI 에이전트(OpenClaw)에 오픈소스 로봇 팔(LeRobot)을 연결해 물체 인식 및 파지, 모델 학습까지 수행하는 실험 결과입니다. 기존에는 로봇 제어·학습이 고도의 전문성을 요구했으나, 최신 코딩 에이전트가 자동 설정·캘리브레이션·스크립트 작성을 처리해 진입 장벽을 크게 낮춥니다. 연구진은 ‘코드를 정책(Code as Policy)으로’ 방식이 로봇 공학의 범용성과 신뢰성을 동시에 끌어올릴 차세대 패러다임이라고 평가합니다.

로봇 공학 에이전트 코드 생성
HN
Hacker News 10일 전
IMP 7

AI 코딩 루프를 위한 정형 검증 게이트

AI가 코드를 대량 생성하는 시대에는 프롬프트로 모델의 행동을 통제하는 '행동적 게이트'만으로는 치명적인 보안 버그를 막기 어렵습니다. 이 글은 코드가 원하는 규칙을 위반하면 컴파일이나 테스트 자체가 실패하도록 구조를 짜는 '구조적 게이트(정형 검증)'를 제안하며, 이를 위해 Shen이라는 정적 타입 언어 기반의 'Shen-Backpressure' 도구를 소개합니다.

AI 코딩 에이전트 소프트웨어 테스트 정형 검증
TD
The Decoder 16일 전
IMP 8

오픈AI, AI 코딩 어시스턴트 '코덱스' iOS·Android 공개

오픈AI가 클라우드 및 로컬 환경에서 독립적으로 코드를 작성하고 수정하는 AI 코딩 에이전트 '코덱스(Codex)'를 iOS 및 Android 앱에 도입했습니다. 사용자는 이제 스마트폰을 통해 코드 변경 사항을 검토 및 승인하고 새로운 작업을 지시하는 등 개발 과정을 원격으로 모니터링하고 관리할 수 있습니다. 기업 환경을 위한 맞춤형 워크플로우 연동 및 원격 SSH 지원 기능도 추가되었으며, 주간 400만 명 이상이 사용하는 이 기능은 무료 플랜을 포함한 모든 요금제에서 프리뷰 형태로 제공됩니다.

오픈AI 코덱스 모바일 앱
LL
r/LocalLLaMA 30일 전
IMP 7

로컬 LLM 게임개발 대결: Gemma 4vs Qwen 3.6

MacBook Pro 환경에서 오픈소스 로컬 LLM인 Gemma 4 31B와 Qwen 3.6 27B를 대상으로 원샷 팩맨 게임 생성 능력을 비교한 결과, Gemma 4가 압도적인 차이로 승리했습니다. Qwen이 더 긴 코드를 생성하며 창의성을 보여줬으나, Gemma는 훨씬 짧은 시간 안에 논리적이고 버그 없는 완성도 높은 게임 로직을 구현해냈습니다. 이는 AI 코딩에서 단순 토큰 생성 속도나 길이보다 코드 품질과 논리적 완성도가 더 중요하다는 것을 시사합니다.

로컬 LLM 게임 개발 코드 생성
LL
r/LocalLLaMA 36일 전
IMP 7

DeepSeek-V4 Flash 대규모 코드 테스트, 정확도 압도적

Reddit 사용자가 DeepSeek-V4 Flash 모델을 대규모 코드 변경 작업에 테스트한 결과, 복잡한 도구(Tool) 호출과 문맥 유지 능력에서 매우 뛰어난 정확도를 보였다고 평가했습니다. 100여 회의 도구 호출 동안 단 한 건의 오류도 없었으며, 오픈웨이트(Open-weights) 모델 중 드문 안정성을 입증했습니다. 다만 토큰 생성 속도가 느리고 추론에 시간이 오래 걸린다는 단점이 있습니다.

DeepSeek 오픈소스 코드 생성
HN
Hacker News 40일 전
IMP 7

타입 시스템과 신경망

본 글은 대형 언어 모델(LLM)이 고도로 추상화된 프로그래밍 언어의 코드를 생성할 때 발생하는 타입 불일치 문제를 지적하며, 타입 검사를 학습 후 처리하는 기존 방식의 한계를 분석합니다. 오류 발생 시 재시도하거나 매 토큰마다 타입을 강제하는 제약 디코딩 방식은 비효율적이거나 근본적인 해결책이 되지 못합니다. 따라서 모델의 가중치를 업데이트하여 근본적으로 타입이 지정된 출력을 생성하도록 LLM 구조를 재설계해야 한다고 강조합니다.

대형 언어 모델 타입 시스템 코드 생성
HN
Hacker News 48일 전
IMP 8

Codex CLI에서 로컬 Gemma 4 모델 구동기

기존 클라우드 모델(GPT-5.4)을 대체할 수 있는 로컬 모델로서 Gemma 4의 실용성을 실험한 후기입니다. 비용, 프라이버시, API 의존도 문제를 해결하기 위해 26B MoE 및 31B Dense 모델을 각각 Mac과 GB10 워크스테이션에 세팅하여 테스트했습니다. 초기 환경 구축의 어려움(버그 및 호환성 문제)에도 불구하고, Gemma 4는 우수한 도구 호출(Tool calling) 성능을 입증하며 에이전트 기반 코딩 환경에서 로컬 모델의 가능성을 확인시켜 주었습니다.

오픈소스 모델 로컬 AI 코드 생성
LL
r/LocalLLaMA 56일 전
IMP 8

애플, 코드 생성 성능 높이는 '초간단 자기 증류' 기법

애플 연구진이 검증자나 강화학습 없이 대규모 언어 모델(LLM)의 코드 생성 능력을 향상시키는 초간단 자기 증류(SSD) 기법을 제안했습니다. 이 방법은 모델 자체의 출력을 샘플링하여 표준 지도 학습 미세조정(SFT)을 수행하는 것만으로 성능을 크게 높입니다. 실제로 300억 파라미터 모델의 코딩 벤치마크 점수를 약 13% 포인트나 끌어올리며, 향후 AI 모델의 포스트 트레이닝 방향성을 제시한다는 점에서 매우 중요한 연구입니다.

애플 연구 자기 증류 코드 생성